我们认为一个面对买家的卖家,他们有能力推迟他们的决定,我们称之为耐心。每种买家的类型都由价值和耐心组成,并采样了I.I.D。来自分布。卖方使用张贴的价格,希望从销售给买方来最大化她的收入。在本文中,我们将此环境正式化,并描述了由此产生的Stackelberg平衡,卖方首先承诺她的策略,然后买家最能做出回应。在此之后,我们展示了如何计算最佳纯和混合策略。然后,我们考虑一个学习环境,卖方无法通过购买者的类型访问分销。我们的主要结果是以下内容。我们通过计算此设置的脂肪震动维度来得出一个用于学习近似最佳纯策略的样本复杂性。此外,我们为近似最佳混合策略提供了一般的样本复杂性。我们还考虑在线环境,并在最佳纯策略和最佳混合策略方面获得了消失的遗憾。
translated by 谷歌翻译